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(54) 发明名称 

一种数据包频度分析的网络代理加密流量 
特征提取方法 

(57) 摘要 

本发明涉及一种数据包频度分析的网络代 
理加密流量特征提取方法,属于机器学习以及网 
络服务安全领域。包括如下 步骤: 步骤1、基于数 
据包频度分析结果抽取数据包;步骤2、数据包长 
度-时间戳之差聚类，生成聚类结果;步骤3、计算 
最优类簇数量;步骤4、计算加密流量特征。所述 
方法引入了基于词频逆文档频率的区分度较大 
数据包，比直接使用所有数据包更有明显的区分 
作用；能作用于任何机器学习分类算法上，分类 
准确率高；引入了数据包长度和时间戳之差聚 
类，可进一步提升 URL 不同页面元素相同的网页 
<的分类 效果; 与现有的加密网络流量分类和识别 
g 方法相比具有更高的准确性。 
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1 .一 种数据包频度分析的网络代理加密流量特征提取方法，其特征 在于： 包括如下步 

骤： 

步骤1、基于数据包频度分析结果抽取数 据包； 

其中，抽取数据包具 体为: 将数据包频度分析结果中区分度大的数据包抽取出来； 

其中，区分度大的数据包是指词频-逆文档频率不小于 0.00001 的数 据包； 

步骤1又包括如下子 步骤： 

步骤 1.1 对捕获到的数据包进行数据包编码，得到编码后数 据包； 

其中，捕获到的数据包为 TCP 数据包，用于区分 TCP 数据包的标志位有 [ SYN ]、[ SYN ， 
ACK ] 、 [ ACK ] 、 [ PSH ， ACK ] 和 [ FIN , ACK ] ； 

其中， [ SYN ] 表示客户端和服务器之间建立 TCP 连接时的 SYN 消息， [ SYN ， ACK ] 表示客户 
端和服务器建立连接时的服务器的应答， [ ACK ] 表示收到消息的确认， [ PSH ， ACK ] 表示发出 
消息的同时对收到的消息进行确认， [ FIN , ACK ] 表示通信双方断开连接； 

步骤 1.2 计算步骤 1.1 输出的编码后数据包的词频代表第 i 种数据包在第 j 类 
网页流量中的比例，遍历 i 和 j ， 又具体包括如下子 步骤： 

步骤 1.2 A 统计第 j 类网页流量中第 i 种数据包的个数 n iJ; 

步骤1 .2 B 统计第 j 类网页中的所有数据包个数总和为 I ： k n k)j; 

步骤1 .2 C 用第 i 种数据包的个数除以第 j 类网页的所有数据包个数，即通过 (1) 计算 
第 i 种数据包在第 j 类网页中的词频 t f i , j : 



n i.j 

Iknic.j 


( 1 ) 


其中， k 代表第 j 类网页中的数据包 种数； 

步骤1 . 3计算步骤1 . 1输出的编码后数据包的逆文档频率； 

特定数据包 i 在网页 j 流量中的计数为 I { j : ti } Gdj |， 所有网页流量总数为 | D |， 通过 (2) 
计算第 i 种数据包的逆文档频率 idf i: 


叫 ， (2 > 

其中， log 是以10为底的对数 操作； 

步骤1 .4 根据步骤1 .2 和步骤1 .3 计算得到的词频逆文档频率 idfi ， 通过⑶计算第 
i 种数据包在第 j 类网页中的词频-逆文档频率 
TIij = tfijXidfi (3) 

步骤 1.5 根据步骤 1.4 得到的词频-逆文档频率 TIi ,」， 去掉词频-逆文档频率小于 
0. 00001的数据包，选择剩下的数据包用作 分类； 

步骤2、数据包长度-时间戳之差聚类,生成聚类结果，具 体为： 

步骤 2.1 提取网页流量中每条流的第一个上行 [ PSH ， ACK ] 数据包的长度 1 P ， 所有流的第 
一个上行 [ PSH ， ACK ] 数据包长度汇集在一个文 件中； 

步骤2 . 2提取每条流的第一个上行 [ PSH ， ACK ] 数据包的时间戳信息 t u ， 接着提取每条流 
的第一个下行 [ PSH ， ACK ] 数据包的时间戳信息 t d ; 再将下行 [ PSH ， ACK ] 数据包的时间戳信息 
t d 减去上行的时间戳信息 t u 的结果作为时间戳之差 t ， 保存所有网络流的时间戳 之差； 

步骤2 . 3将每条流中的第一个上行 [ PSH ， ACK ] 数据包的长度和时间戳之差保存在一个 
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文件中供聚类 使用； 

步骤2 . 4遍历簇数 m 从2到0_，将步骤2 . 1提取的数据包长度 1 P 和时间戳之差 t 进行聚类， 
生成聚类结果 Cm ; 

其中， q max 代表最大的类簇数量； 

Qmax = J X 3 (4) 

其中， J 为要分类网页的 类数； 

其中，聚类采用 K - Means 方法； 

聚类结果，记为 Cm = { centi ，…， centm } , cent m 代表第 m 个类簇中心的中心值； 

其中，每条流中要参与聚类的元素为 （ l P ， t ) ，两个聚类点 clup a ， cl Upb 之间的距离 dis 
( clup a , clupb ) 釆用公式 (5) 计算： 

dis(dwp a , clup b ) = J(/ Pa - / P J + (t a - t b ) 2 (5) 

步骤3计算最优类簇数量，具 体为： 

步骤 3. 1遍历 w 基于 (6) 计算聚类点 clup 与类簇中心 cerrU 的距离和 SSE ( w ) : 

SSE(w) = I^=i\\clup r - cent^W 2 (6) 

其中， P 代表聚类点 clup 的 个数; m 的取值范围为 2 到 9 _ ; 

步骤 3. 2选择步骤 3.1 计算的最小 SSE («) 对应的类簇中心数量为最优类簇数量，此最 
小的 SSEO ) 记为 SSEO Qpt ) ，此最小 SSE («) 对应的最优类簇中心记为 Cn ^ c ^ pt ) ; 

步骤4计算加密流量特征，具体包括如下子 步骤： 

步骤 4. 1计算步骤1中提取出来的区分度大的数据包的统计特征值 ( max , min , mean , ••• , 
var ) ； 

步骤 4. 2计算每条流中上行第一个 [ PSH ， ACK ] 数据包的大小与时间戳之差形成的二元 
组与步骤3生成的最优类簇中心 CnUc ^ pt ) 之间的距离 ..., di 5 Wopt )； 

其中，步骤 4. 1的统计特征值 ( max , min , mean , •••, var ) 与步骤 4.2 的二元组与类簇中心 
的距离 ...， 作为加密流 F 的特征。 

2. 如权利要求1所述的一种数据包频度分析的网络代理加密流量特征提取方法，其特 
征在于 ：步骤 1.1 中，数据包编码结合标志位、数据包的长度信息及数据包的方向信息进行 
综合 编码； 

其中，数据包的方向用 U 、 D 表示, U 代表上行， D 代表下行。 

3. 如权利要求1所述的一种数据包频度分析的网络代理加密流量特征提取方法，其特 
征在于 :步骤 1.2 中的 i 和 j 均大于1。 

4. 如权利要求1所述的一种数据包频度分析的网络代理加密流量特征提取方法，其特 
征在于 :步骤 2.1 中的每条流通过将网页流量中按源端口、目的端口、源 IP 、 目的 IP 和协议五 
元组进行划分得到。 
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一种数据包频度分析的网络代理加密流量特征提取方法 


技术领域 

[0001] 本发明涉及一种数据包频度分析的网络代理加密流量特征提取方法，尤其涉及一 
种基于数据包频度与数据包长度和时间戳之差聚类的机器学习 Shadowsocks 代理的加密流 
量特征提取方法，旨在为识别 Shadowsocks 加密过后的网页流量提供区分度大的流量特征， 
属于机器学习以及网络服务安全领域。 

背景技术 

[0002] 流量是网络信息传输的载体。 Shadowsocks 是一种基于 S 0 CKS 5 的加密代理技术，作 
用在传输层和应用层之间为用户提供代理服务。本发明所指流量识别技术是对经过 
Shadowsocks 加密过后的流量进行细粒度的分类识别。通过对 Shadowsocks 流量进行细粒度 
的分类识别，可以对用户的上网习惯进行分析，也可以及时发现恶意页面的流量实施有效 
的拦截和屏蔽，保障网络安全。在实际应用中，通过将该类识别功能部署在路由器等网关节 
点中，可以及早发现并屏蔽恶意页面的流量，确保网络安全。 

[0003] 现有的流量识别方法主要包含两大 类：明 文流量识别和加密流量识别。在明文流 
量识别中采取的主要技术是深度数据包检测和端口检测。随着加密技术的采用和跳变端口 
技术的采用，网络通信过程中的数据包被加密，深度数据包检测技术和端口检测技术逐渐 
失去了效用。现在的研宄热点主要集中在加密流量识别中。流量的加密技术主要有 两种： 
SSL/TLS (安全套接层/传输层安全)协议和基于 Socks 5 的加密代理协议。目前针对标准 SSL / 
TLS 加密后的流量识别技术研宄比较充分，而针对基于 Socks 5 的加密代理流量的识别则不 
是很充分。 Shadowsocks 是一种基于 Socks 5 的加密代理技术。 

[0004] 在 Shadows 0 ck s 加密网络流量分类和识别方面，可检索到的关联最大的两项专利 
为： 

[0005] (1) 现有文献提出两种分类 Secure Shell ( SSH ) 协议加密后的流量识别方法。研宄 
者用到的数据包分类特征为数据包的大小和数据包的方向。通过对数据包大小和方向向量 
化表示，作者采用高斯混合模型 (Gaussian Mixture Models , GMM ) 和支持向量机 (Support 
Vector Machines , SVM ) 对 SSH 协议加密过后的网络流量进行分类。该种分类方法的识别是 
粗粒度识别，可以对应用层的不同协议进行识别，如识别 HTTP 、 P 0 P 3 和 SEMULE 等不同应用层 
协议的流量。 

[0006] (2) 己有专利提出了一种在背景流量中检测 Shadowsocks 流量的方法。研宄者将总 
的数据包个数、流出数据包个数、流入数据包个数、传输时间、流入数据包的比例、流出数据 
包的比例、最大数据包长度、平均数据包长度等信息进行特征提取，将提取好的特征值放入 
随机森林 (Random Forest ) 分类器中进行分类可以从背景流量中有效识别出 Shadowsocks 
流量，识别的准确率为85%。这种方法只是从背景流量中识别 Shadowsocks 流量，不能进行 
进一步的细粒度的流量分类。 

[0007] 综上所述，在 SSH 流量分类领域有对 SSH 粗粒度的分类，而对使用 Shadowsocks 加密 
后的代理流量识别领域，目前仅有从背景流量中识别 Shadowsocks 流量的方法，还没有对 
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发明内容 

[0008] 本发明的目的在于为识别 Shadowsocks 加密过后的网页流量提供区分度大的流量 
特征，进而辅助于 Shadowsocks 流量细粒度分类，通过对加密后的网页流量进行分类，对用 
户的行为习惯进行分析以及检测恶意网页流量，应用于 Shadowsocks 加密过后的网页流量， 
提出了一种数据包频度分析的网络代理加密流量特征提取方法。 

[0009] 所述网络代理加密流量特征提取方法，包括如下 步骤： 

[0010] 步骤1、基于数据包频度分析结果抽取数 据包； 

[0011] 其中，抽取数据包具 体为: 将数据包频度分析结果中区分度大的数据包抽取出来； 
[0012] 其中，区分度大的数据包是指词频-逆文档频率不小于 0.00001 的数 据包； 

[0013] 步骤 1 又包括如下子 步骤： 

[0014] 步骤 1.1 对捕获到的数据包进行数据包编码，得到编码后数 据包； 

[0015] 其中，捕获到的数据包为 TCP 数据包，数据包编码结合标志位、数据包的长度信息 
及数据包的方向信息进行综合 编码； 

[0016] 其中，用于区分 TCP 数据包的标志位有 [ SYN ] 、 [ SYN ， ACK ] 、 [ ACK ] 、 [ PSH ， ACK ] 和 
[ FIN . ACK ] ； 

[0017] 其中， [ SYN ] 表示客户端和服务器之间建立 TCP 连接时的 SYN 消息， [ SYN ， ACK ] 表示 
客户端和服务器建立连接时的服务器的应答， [ ACK ] 表示收到消息的确认， [ PSH ， ACK ] 表示 
发出消息的同时对收到的消息进行确认， [ FIN ， ACK ] 表示通信双方断开连接； 

[0018] 其中，数据包的方向用 U 、 D 表示， U 代表上行, D 代表 下行； 

[0019] 步骤 1.2 计算步骤 1.1 输出的编码后数据包的词频代表第 i 种数据包在 
第 j 类网页流量中的比例，遍历 i 和 j ; 

[0020] 其中， i 和 j 均大于1; 

[0021] 步骤 1.2 又具体包括如下子 步骤： 

[0022] 步骤 1.2 A 统计第 j 类网页流量中第 i 种数据包的个数 m ， j; 

[0023] 步骤 1.2 B 统计第 j 类网页中的所有数据包个数总和为 E knk , j ; 

[0024] 步骤 1.2 C 用第 i 种数据包的个数 m ， j 除以第 j 类网页的所有数据包个数，即通过⑴ 
计算第 i 种数据包在第 j 类网页中的词频 


r riij 

[0025] tfi - j = ^ 


⑴ 


[0026] 其中， k 代表第 j 类网页中的数据包 种数； 

[0027] 步骤1 . 3计算步骤1 . 1输出的编码后数据包的逆文档 频率； 

[0028] 特定数据包 i 在网页 j 流量中的计数为 | edj | ， 所有网页流量总数为 | D | ， 通 

过⑵计算第 i 种数据包的逆文档频率 idfi : 


[0029] 


idfi = log 


l+\{j ： ti€dj}\ 


⑵ 


[0030] 其中， log 是以 10 为底的进行取 对数； 

[0031] 步骤 1.4 根据步骤 1.2 和步骤 1.3 计算得到的词频逆文档频率 idfi , 通过 (3) 
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计算第 i 种数据包在第 j 类网页中的词频-逆文档频率 
[0032] TIi，j = tfi，jXidfi (3) 

[0033] 步骤 1.5 根据步骤 1.4 得到的词频-逆文档频率去掉词频-逆文档频率小于 
0.00001 的数据包，选择剩下的数据包用作分类； 

[0034] 步骤2、数据包长度-时间戳之差聚类，生成聚类 结果； 

[0035] 步骤2 . 1提取网页流量中每条流的第一个上行 [ PSH ， ACK ] 数据包的长度 1 P ，所有流 
的第一个上行 [ PSH ， ACK ] 数据包长度汇集在一个文 件中； 

[0036] 其中，每条流通过将网页流量中按源端口 、目 的端口、源 IP 、 目 的 IP 和协议五元组 
进行划分 得到； 

[0037] 步骤 2. 2提取每条流的第一个上行 [ PSH ， ACK ] 数据包的时间戳信息 t u ， 接着提取每 
条流的第一个下行 [ PSH ， ACK ] 数据包的时间戳信息 t d ; 再将下行 [ PSH ， ACK ] 数据包的时间戳 
信息 t d 减去上行的时间戳信息 t u 的结果作为时间戳之差 t ， 保存所有网络流的时间戳 之差； 
[0038] 步骤 2. 3将每条流中的第一个上行 [ PSH ， ACK ] 数据包的长度和时间戳之差保存在 
一个文件中供聚类使用； 

[0039] 步骤 2. 4遍历簇数 m 从2到 q raax ，将步骤 2.1 提取的数据包长度 1 P 和时间戳之差 t 进行 
聚类，生成聚类结果 Cm ; 

[0040] 其中， q max 代表最大的类簇 数量； 

[0041] q max = JX 3 ⑷ 

[0042] 其中， J 为要分类网页的 类数； 

[0043] 其中，聚类采用 K - Means 方法； 

[00 44 ] 聚类结果，记为 Cm = { centi ,---, centm }， centm 代表第 m 个类簇中心的中心值； 

[0045] 其中，每条流中要参与聚类的元素为 （ l P ， t ) ，两个聚类点 clup a ， cl Upb 之间的距离 
dis ( clup a , clupb ) 采用公式⑸计算： 


[0046] d\s(iclup a ,clup b ) = ^l Pa - l p J + (t a - t b ) 2 (5) 

[0047] 步骤 3 计算最优类簇数量，具 体为： 

[00 48 ]步骤 3. 1遍历 W 基于⑹计算聚类点 clup 与类簇中心 centu 的距离和 SSE ( W ) : 

[0049] SSE(oj) = S?=iHw=ill c ^Pr - cent^W 2 (6) 

[0050] 其中 ， P 代表聚类点 clup 的 个数; m 的取值范围为2到 q raax ; 

[0051] 步骤 3. 2选择步骤 3.1 计算的最小 SSE («) 对应的类簇中心数量为最优类簇数量， 
此最小的 SSE ( « ) 记为 SSE (« opt ) ，此最小 SSE ( « ) 对应的最优类簇中心记为 Cm ( « op t ) ; 

[0052] 步骤4计算加密流量特征，具体包括如下子 步骤： 

[°°53]步骤 4. 1计算步骤1中提取出来的区分度大的数据包的统计特征值 ( max , min , 
mean ，…， var ) ； 

[0054] 步骤 4. 2计算每条流中上行第一个 [ PSH ， ACK ] 数据包的大小与时间戳之差形成的 
二元组与步骤3生成的最优类簇中心 Cm (« Qpt ) 之间的距离 fiiSi , 

[ OO 55 ] 至此，步骤 4. 1的统计特征值 ( max , min , mean , var ) 与步骤 4. 2的二元组与类簇 
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中心的距离 fdi %, ..., dis W£jp j 作为加密流 F 的特征。 

[0056] 有益效果 

[0057] 本发明提出了一种数据包频度分析的网络代理加密流量特征提取方法，与现有网 
络代理加密流量特征提取方法相比，具有如下有益 效果： 

[0058] (1) 本发明适用于 Shadowsocks 代理加密过后的网络流量进行 分类； 

[0059] (2) 本发明引入了基于词频逆文档频率的区分度较大数据包特征提取技术，用该 

种技术提取出来的数据包比直接使用所有数据包更有明显的区分 作用； 

[0060] (3) 本发明引入了的基于词频逆文档频率的区分度较大数据包特征提取技术，这 
种方法提取出来的数据包能作用于任何机器学习分类算法上，对分类准确率的提升有较大 
贡献； 

[0061] (3) 本发明引入了数据包长度和时间戳之差聚类，可进一步提升 URL 不同页面元素 

相同的网页的分类 效果； 

[0062] (4) 本发明通过大量实验数据实验证明，与现有的加密网络流量分类和识别方法 

相比具有更高的准确性。 


附图说明 

[0063] 图 1 为本发明一种数据包频度分析的网络代理加密流量特征提取方法的整体流程 
图； 

[0064] 图 2 为本发明一种数据包频度分析的网络代理加密流量特征提取方法步骤 1 中的 
词频-逆文档频率区分度大的数据包提取示 意图； 

[0065] 图3为本发明一种数据包频度分析的网络代理加密流量特征提取方法步骤2中的 
数据包长度和时间戳之差聚类结果示意图。 

具体实施方式 

[0066] 下面结合附图和实施例，更具体地说明本发明“基于数据包频度分析的网络代理 
加密流量特征提取方法”的过程，并阐述其优点。应当指出，本发明的实施并不局限于下面 
的实施例，对本发明所做的任何形式上的变通或改变将落入本发明保护范围。 

[0067] 实施例 1 

[0068] 本实施例是基于本发明的步骤 1 到步骤4进行的完整的 Shadowsocks 加密代理流量 
特征提取仿真，整体流程图如图1所示，通过区分度大的数据包提取技术和聚类结果共同作 
用生成的网络流量特征用于加密代理流量分类。 

[0069] 首先进行区分度大的数据包抽取，具体流程如图2所示。假设捕获到的某条数据流 
表示为 F = (pi,..,Pn) ，其中 Pi 代表第 i 个数据包。数据包 Pi 包含的信息包含了三部分数据包 
方向、数据包大小以及数据包的标志信息，如果数据包 Pi 为从客户端发往服务器的长度为 
54的 SYN 数据包，则该数据包编码为 U _54_ SYN ， 代表从客户端发往服务器的长度为54的 SYN 
包; 对所有数据包进行上述编码。 

[0070] 编码之后计算每种数据包在不同网页流量中的出现的频率。数据包编码为 U _54_ 
SYN，U 66 SYNACK，U 54 ACK，U 77 PSHACK，U 671 PSHACK,D 54 ACK,U 1354 ACK,D 54 
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FINACK 在 www . google , com 页面流量中出现的频率为 0.01785,0.01785,0.03571,0.0714, 
0. 0714, 0. 3571，0. 0714,0. 03571。 

[00 71 ]接着计算包含不同数据包的 www . google , com 页面流量在所有页面流量中的逆文 
档频率，所有流量条数为5000 ， 其中包含 U _54 _SYN 的流量条数为4500 , 则 U _54 _SYN 的逆文档 

频率计算为= 0.0000869。用每种数据包的频率乘以包含该数据包的网页流 

量的逆文档频率，即为该种数据包在该网页中的词频-逆文档频率 H ， 如在本实例中 U _54_ 
SYN 的数据包在 google . com 中的文档-逆文档频率为0 .01785 X 0. 0000869 = 0 . 0008168。 
google , com 所包含的数据包词频-逆文档频率计算结果如表1所示。 


[0072] 表1 www . google , com 网页流量中数据包词频-逆文档频率计算结果 

[0073] 


数据包 

词频 

逆文频率 

词频-逆文档频率 

U _54 _SYN 

0.01785 

0.0000869 

0.00000155 

U —66 _SYNACK 

0.01785 

0.0000869 

0.00000155 

U _54 _ACK 

0.35714 

0.0000869 

0.00003102 

U _77 一 PSHACK 

0.07142 

0.0086853 

0.00062030 

U —671 —PSHACK 

0.07142 

0.0086853 

0.00062030 

D _54 _ACK 

0.03571 

0.0086853 

0.00031015 

D _1354 _ACK 

0.07142 

0.0086853 

0.00062030 

D _54 _FINACK 

0.03571 

0.0086853 

0.00031015 


[0074] 根据表1可知 U _54_ SYN ， U _66_ SYNACK 的数据包区分效果不好，在进行特征值计算 
时主动滤除这些数据包。 


[0075] 进行聚类时首先提取每条流中的第一个 [ PSH ， ACK ] 数据包的大小，然后提取上行 
第一个 [ PSH ， ACK ] 数据包和下行第一个 [ PSH ， ACK ] 数据包的时间戳之差，然后将时间戳之差 
扩大1000倍，将数据包大小和时间戳之差组成的二元组信息进行聚类。聚类好的类簇中心 
为： [(97.57143,732.809) ， (107.7105,143.8095) ，…， (1354,702) ]，聚类结果如图3所示。 
[0076] 加密流量特征值计算，将去除区分度低的数据包后的其它数据包计算统计特征 
值，计算该条流的聚类点 ( l p , t ) 与上述类簇中心的距离组成的向量组作为 Shadowsocks 加 
密代理流量的分类特征。 

[0077] 实施例2 

[0078] 本实施例是将本发明所述方法与其它流量分类算法进行对比，以验证本发明的优 
势及有效性。将本发明所述的基于词频分析的流量特征提取方法 ( TF - IDF ) 与传统机器学习 
算法最近邻算法 ( k - NN ) 、支持向量机 ( SVM ) 、随机森林 ( RANF ) 结合构建的网络流量分类器的 
效果要优于不使用直接使用这些分类器进行分类的结果。使用同一流量数据集对网页流量 
进行分类，不同方法的对比结果如表2 所示： 


[0079] 表2不同方法分类准确率对比 

[0080] 


分类算法 

k-NN 

k - NN_T 

SVM 

SVM_T 

RANF 

RANF_T 

准确率 

67.51% 

72.85% 

63.62% 

72.81% 

71.04% 

76.16% 








[0081] 从表 2 可以看出使用词频分析过后的抽取的区分度大的数据包无论用于哪种流量 
分类算法都能提高分类器的准确率，使用随机森林分类器的效果最好。我们将引入聚类模 
型之后的分类模型记为 RFTC ， 与目前先进的流量分类算法的分类结果对比如表3 所示： 

[0082] 表3与先进的流量分类模型分类效果对比 

[0083] 




分类方法 


精确率 


召回率 


DDTW 


56. 71% 


54. 08% 


APPS 


71.83% 


71.04% 


RFTC 


79. 52% 


79. 38% 




[0084] 



[0085] 从表3可以看出，本发明与现有的流量分类方法相比，具有明显优势，精确率、召回 
率及准确率都高于其他两种分类算法。本发明对使用代理之后的流量可以提取良好的流量 
特征，助力于流量精细化分类检测，能够提高分类准确率，可以投入实际应用中。 

[0086] 虽然本文结合附图实例描述了本专利的实施方式，但是对于本领域技术人员来 
说，在不脱离本专利原理的前提下，还可以做出若干改进，这些也是为属于本专利的保护范 
围。 
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Clustering Model 




图 1 
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簇数 C 

fpli,tdi 

fpl2,td2 

■ ■ ■ 

fpln,tdn 

Centi, …, Centm 



聚类二元组 


类簇中心 



图3 
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